iT邦幫忙

2024 iThome 鐵人賽

DAY 1
4
DevOps

後 Grafana 時代的自我修養系列 第 1

後 Grafana 時代的第一天 - 總不能永遠只有 LGTM

  • 分享至 

  • xImage
  •  

https://ithelp.ithome.com.tw/upload/images/20240915/20149562BDakHzcgAl.png

前言

2023 年是可觀測性發展的關鍵時刻,隨著 OpenTelemetry 社群的推廣,許多可觀測性解決方案逐漸成熟,而其中最引人注目的莫過於在開源軟體世界備受推崇的 Grafana Labs。尤其值得一提的是 Grafana Labs 經歷十年磨一劍,打造出 LGTM 產品線(包括 Loki、Grafana、Tempo、Mimir)。這些產品因其與雲原生技術的高度契合、彈性且成本低廉,以及與 Grafana 平台的深度整合,迅速成為眾人的焦點。於是後來的故事我們都知道了,圍繞 Grafana 全家桶的討論和分享如雨後春筍般在各大社群和會議中湧現。

隨著實務中的不斷探索,我逐漸累積了搭建大規模可觀測性基礎設施的經驗與心得。然而,隨著深入理解,我發現即便建構出一套完整的可觀測性基礎設施,也僅僅是邁出了實現可觀測性的第一步。回歸本質,當工具和團隊規模擴大,工程師們往往會陷入在使用者管理與設置維護上的疲憊,導致在享受到可觀測性所帶來的好處之前,已經感到力不從心。這也讓我開始反思,在我建立起這一切後,下一步應該如何在大規模系統中組織架構出一個好的 Grafana 生態,以及我們撇除這些工具後所能創造的價值。畢竟,總不能永遠只有 LGTM。

本系列文章將深入介紹 Grafana 在大規模團隊中的實務經驗,並探討如何通過 Gafana IaC 的方式來顛覆我們對 Grafana 設定管理的認知。最後,我們將補足可觀測性監控的最後一塊拼圖,首先探討告警在實務中的實作與團隊所面臨的痛點,並構建一個與 Grafana 生態高度整合的大型告警事件中心,實現從數據觀測到採取行動的成熟應對方式。

雖然我們不是數學家,但我知道這聽起來很酷!

目錄

https://ithelp.ithome.com.tw/upload/images/20240915/20149562gMJUp5cdHo.png

在接下來的日子裡,我將根據自己的理解,深入淺出地為各位分享在 Grafana 上的各種實務經驗,並總結出精華議題。其中將涵蓋 Grafana 全家桶生態的基本概念,並實際以 Kubernetes 作為運作平台進行講解。

如果對於 Grafana 全家桶以及 Kubernetes 還不夠熟悉的朋友,不彷先回頭參考一下以下系列文:

經驗分享篇:不了解痛苦,就無法了解真正的和平

基礎架構篇:高可用是成功堅定的基石

實戰管理篇:上帝說要 IaC 於是萬物皆可 as Code

告警篇:告別無數個夜裡的虛驚一場

  • 後 Grafana 時代的第二十天 - Grafana 大型告警事件中心搭建
  • 後 Grafana 時代的第二十一天 - Grafana 大型告警事件中心的必要性
  • 後 Grafana 時代的第二十二天 - Prometheus AlertManager 介紹
  • 後 Grafana 時代的第二十三天 - Prometheus AlertManager 實戰
  • 後 Grafana 時代的第二十四天 - Grafana Alerting 介紹
  • 後 Grafana 時代的第二十五天 - Grafana Alerting 實戰
  • 後 Grafana 時代的第二十六天 - Grafana OnCall OSS 介紹
  • 後 Grafana 時代的第二十七天 - Grafana OnCall OSS 安裝
  • 後 Grafana 時代的第二十八天 - 整合 Prometheus AlertManager、Grafana Alerting
  • 後 Grafana 時代的第二十九天 - Grafana OnCall OSS 整合 Slack ChatOps

結語:只有虛無,在寂靜的宇宙中

  • 後 Grafana 時代的第三十天 - 一個時代的終結,也是另一個開始

Bonus 篇:黑色安息日,安靜優雅的輕聲哭泣

  • Grafana OnCall OSS 整合 Mobile APP Push
  • Grafana Synthetic Monitoring OSS 黑盒監控介紹
  • Grafana Synthetic Monitoring OSS 黑盒監控實戰
  • Grafana Grizzy 絕對是 Grafana IaC 的關鍵拼圖
  • Kubernetes SLO on Grafana 實踐
  • Grafana Incident 無責文化
  • Prometheus 高基數分析優化

結論

又到了鐵人賽開賽的這一天了,照慣例的預祝每個奮鬥的黑眼圈鐵人們參賽順利,能夠在這短短的幾個月中,透過研究分享最終得到突飛猛進的理解,向自己嚮往的學習目標前進。

在今年的工作上,我幾乎獲得了一個在超大規模下全職實踐可觀測性工程的機會,這也讓我對於雲端、監控與可觀測性的生態擁有更多理解。在過程中,每天都面臨著對於實務現況權衡下,做出「最好」的選擇,也使我習慣了不斷反思更好的 Grafana 實踐,進而又讓我踏上今年的鐵人賽不歸路,三十篇的篇幅有限,作者的能力也很有限,希望能真正幫助到有需求的人。

在最後的段落我放了些,覺得很值得分享但無法在有限的三十天內向各位介紹的主題,或許能幫助你找到有興趣的研究方向,也或許我能在三十天後繼續補充這個系列。無論如何,如果你對任何主題有興趣或疑問,歡迎留下你的想法,或是敲破碗地成為我生出下一篇文章的動力。


下一篇
後 Grafana 時代的第二天 - Grafana 入門介紹
系列文
後 Grafana 時代的自我修養13
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

1
ysl0628
iT邦新手 3 級 ‧ 2024-09-15 16:29:17

已經準備好入 Grafana 教了

我要留言

立即登入留言